樹選手２號：random forest

2021 iThome 鐵人賽

DAY 4

AI & Data

Python 機器學習實驗室 ʘ ͜ʖ ʘ系列第 4 篇

13th鐵人賽 random forest

nancysunnn

2021-09-18 07:25:36

1486 瀏覽

分享至

在前面兩天簡單介紹了一下decision tree的原理，今天來談談如何把樹變成一片森林～
Ramdom forest基本上就是採用團結力量大的方式來種很多不同的樹，最後再把每棵樹預測的結果總和，跟decision tree一樣：如果是分類問題就採取多數決，如果是數值預測問題就採用平均數，random forest的好處在於：

有效解決decision tree overfitting 的問題
準確率通常比decision tree高
比較不容易受極端值影響

random forest隨機在哪裡？

bagging

如果我們想要種很多不同的樹，但每棵樹我們都給他一模一樣的training data，那長出來的樹都會一樣，這樣就是白忙一場～所以第一個隨機的部分就在於：對於每棵樹，我都給他不同的training data，抽取的辦法有一個專門的詞叫做“Bagging”，具體的方法是：我從所有的資料裡面抽取n個資料形成一個子樣本（放回再抽下一個，所以資料可！以！重！複！），這件事重複做很多次，取決於你想要幾棵樹就做幾次。